使用HIVE SQL实现推荐系统数据补全-阿里云开发者社区

使用HIVE SQL实现推荐系统数据补全

2016-05-04 2394

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

需求

在推荐系统场景中，如果基础行为数据太少，或者过于稀疏，通过推荐算法计算得出的推荐结果很可能达不到要求的数量。

比如，希望针对每个item或user推荐20个item，但是通过计算只得到8个，剩下的12个就需要补全。

策略

数据补全的具体策略是：

补全时机：在挖掘计算结束后，挖掘结果导入HBase（最终web系统从HBase取数据）前，进行数据补全，补全后的数据再导入HBase。（还有另外一个可选时机，在接到请求后再在程序中实现补全，但这样的效率肯定没有直接从HBase中读数的高，所以空间换时间是更为合理的策略）；
实现技术：补全过程基于HIVE实现；
补全数据：测试过程使用当前浏览item同分类下近一段时间的浏览量TopN；
测试场景：本文仅针对“看了又看”进行数据补全实验，其它推荐需求类似。

实验过程

1. 首先在Oracle下调试SQL

调试过程涉及两张表：

（1）TEST_TOPN：

该表中每行代表了一个item在某一天的访问量。

（2）TEST_X_AND_X：

该表中每行代表了针对每一个item的看了又看的item及其访问量。

我们的目的，就是将该表补全，针对每个current_item都要有5个看了又看的item。

比如，针对10001号item，需要从it分类下取得top2填补到该表中来。

Oracle中通过以下SQL成功实现该目的：

select * from

(select row_number() over(partition by current_item_category,current_item_id order by source,view_count desc) no,

current_item_id, current_item_category, andx_item_id, source, view_count from

(select current_item_id, current_item_category, andx_item_id, 1 source, view_count

from test_x_and_x

union

select a.current_item_id,a.current_item_category,b.item_id,2,b.view_count

from

(select current_item_id,current_item_category from test_x_and_x

group by current_item_id,current_item_category) a, test_topn b

where a.current_item_category = b.item_category

)) where no<=5

注意：其中的source列用于标识数据来自原始表还是TOPN，所有TOPN的表数据都排在原始表数据之后。

2. 将Oracle中的SQL语句移植到HIVE中

成功移植的HIVE SQL：

select * from

(select rank() over(partition by c.current_item_category,c.current_item_id order by c.source,c.view_count desc) no,

c.current_item_id, c.current_item_category, c.andx_item_id, c.source, c.view_count

from

(select current_item_id,current_item_category,andx_item_id,1 source,view_count

from test_x_and_x

union all

select
a.current_item_id current_item_id,a.current_item_category
current_item_category,b.item_id andx_item_id,2 source,b.view_count
view_count

from

(select current_item_id,current_item_category from test_x_and_x

group by current_item_id,current_item_category) a, test_topn b

where a.current_item_category = b.item_category) c

) d where d.no <= 5;

执行结果和Oracle中完全一致：

移植过程中遇到一些坑，特此记录：

HIVE只支持union all，不支持union；
union all的两张表，不仅要对应字段数据类型相同，字段名（可使用列别名）也必须完全相同；
每一个嵌套子查询的结果集都必须使用表别名！

相关实践学习

云数据库HBase版使用教程

  相关的阿里云产品：云数据库 HBase 版面向大数据领域的一站式NoSQL服务，100%兼容开源HBase并深度扩展，支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力，是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库，是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验：数据库上云实战开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引，您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。点击下方链接，领取免费ECS&RDS资源，30分钟完成数据库上云实战！https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl

使用HIVE SQL实现推荐系统数据补全

热门文章

最新文章

相关课程

相关电子书

相关实验场景